Rethinking batch effect removing methods—各种NMF
分享是一种态度
原文连接:https://zhuanlan.zhihu.com/p/356713157
本来这篇文章是想讲 cFIT 的,但是在群里分享,经张世华老师指点,告诉我几篇非常相关的文章,其实 LIGER 的 idea 是源自 Integrative non-negative matrix factorization (iNMF), 然后更早就是张老师做的 joint non-negative matrix factorization (jNMF),之后的后续是 Common and Specific patterns via Matrix Factorization (CSMF)。感觉都是很好的文章,于是就一并在这一篇中整理归纳了。才疏学浅,写的混乱的地方评论区大家随意评论~
cFIT: Peng M, Li Y, Wamsley B, et al. Integration and transfer learning of single-cell transcriptomes via cFIT[J]. Proceedings of the National Academy of Sciences, 2021, 118(10).
JNMF: Zhang S, Li Q, Liu J, et al. A novel computational framework for simultaneous integration of multiple types of genomic data to identify microRNA-gene regulatory modules[J]. Bioinformatics, 2011, 27(13): i401-i409.
iNMF: Yang Z, Michailidis G. A non-negative matrix factorization method for detecting modules in heterogeneous omics multi-modal data[J]. Bioinformatics, 2016, 32(1): 1-8.
JSCM: Zhang L, Zhang S. Learning common and specific patterns from data of multiple interrelated biological scenarios with matrix factorization[J]. Nucleic acids research, 2019, 47(13): 6606-6617.
回顾前文
问:rethinking batch effect removing methods 到底是 rethinking 了什么呢
答:反思串联了这几个整除 batch effect 的方法的核心 idea 是什么。
从 CCA 不是 CCA,其实是保留了跨 batch 样本之间的余弦距离开始讲起
如果这个降维是保留了样本之间的余弦距离的话那么其实和直接使用源数据的跨 batch 距离来找到 MNN 是基本一致的,除了使用了 SVD 取前 K 大的特征值来 denoise 。
MNN 的附录中给出了为什么能够使用跨 batch 的距离来找到生物学上的对应的一个模型解释。$X=X_{Bio} + X_{Batch} = B\beta+W_{X} \alpha $,在这个模型的基础上做一些假设就可以推导出生物距离最近的即为远数据中最近。
而通过这个模型,我们可以发现选取不同的假设,可以得到不同文章的方法。包括 CFIT, LIGER,JNMF, iNMF, JSCM。或者换句话说这些方法背后认为的生物模型就是这个。
Model
LIGER
iNMF
JNMF
CSMF
cFIT
Summary
儿童克罗恩病回肠转录组学揭示初治患者中IL-17与NOD信号转导表达特征
如果你对单细胞转录组研究感兴趣,但又不知道如何入门,也许你可以关注一下下面的课程
看完记得顺手点个“在看”哦!
长按扫码可关注